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Beschreibung 

Verfahren zur automatischen Klassif ikation eines auf einem 
Dokument auf gebrachten Textes nach dessen Transformation in 
5 digitale Daten 

Aus [l] ist ein System bekannt, mit dem z. B. Geschaf tsbrief - 
dokumente kategorisiert werden konnen und dann in elektroni- 
scher oder Papierform weitergeleitet werden konnen, bzw. ge- 

10 zielt abgelegt werden konnen. Dazu enthalt das System eine 

Einheit zur Layout segment ierung des Dokumentes, eine Einheit 
zur optischen Texterkennung , eine Einheit zur Adressenerken- 
nung und eine Einheit zur Inhaltsanalyse und Kategorisierung . 
Fur die Segment ierung des Dokumentes wird ein gemischter bot- 

15 tom-up- und top-down-Ansatz benutzt, der als Einzelschritte 
die 

• Erkennung der zusammenhangenden Komponenten, 

• Erkennung der Textlinien, 

• Erkennung der Buchstabensegmente , 
20 • Erkennung der Wortsegmente und 

• Erkennung der Absatzsegmente umf aSt . 

Die optische Texterkennung ist in drei Teile gegliedert: 

• Buchstabenerkennung in Kombination mit lexikonbasierter 
25 Wortverif ikation. 

• Worterkennung, 

mit der Klassif izierung aus Buchstaben und wortbasierter 
Erkennung . 

30 Die Adresserkennung wird mit einem unif ikationsbasierten Par- 
ser durchgef iihrt , der mit einer attributierten kontextf reien 
Grammatik fur Adressen arbeitet . Im Sinne der AdreSgrammatik 
korrekt geparste Textteile sind dement sprechend Adressen. Die 
Inhalte der Adressen werden uber Merkmalsgleichungen der 

35 Grammatik bestimmt. Das Verfahren wird in [2] beschrieben. 
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Fur die Inhaltsanalyse und Kategorisierung werden Informati- 
on-Retrieval Techniken zur automatischen Indexierung von Tex- 
ten benutzt . Im einzelnen sieht dies wie f olgt aus : 

• Morphologische Analyse der Worter 

• Eliminierung von Stoppwortern 

• Erstellung einer Wortstatistik 

• Berechnung des Indextermgewichts mit aus dem Informations- 
Retrieval bekannten Formeln, wie z. B. der inversen Doku- 
menthauf igkeit . 

Mittels der so berechneten Indextermgewichte wird nun fur al- 
le Kategorien eine dreistufige Liste signif ikanter Worter er- 
mittelt, welche die jeweilige Kategorie charakterisiert . Wie 
in [1] beschrieben, werden diese Listen nach der Trainings - 
phase noch manuell uberarbeitet . 

Die Kategorisierung eines neuen Geschaf tsbrief es erfolgt dann 
durch den Vergleich der Indexterme dieses Brief es mit den Li- 
sten der signif ikanten Worter fur alle Kategorien. Die Ge- 
wichte der im Brief enthaltenen Indexterme werden je nach Si- 
gnifikanz mit einer Konstanten multipliziert und aufsummiert. 
Durch Teilen dieser Summe durch die Anzahl der Indexterme im 
Brief ergibt sich somit fur jede Klasse eine Wahrscheinlich- 
keit. Die genauen Berechnungen ergeben sich aus [3] . 
Ergebnis der Inhaltsanalyse ist dann eine nach Wahrschein- 
lichkeiten sortierte Hypothesenliste . 

Die der Erfindung zugrundeliegende Aufgabe besteht darin, ein 
Verfahren anzugeben, nach dem die Inhaltsanalyse des Textes 
und damit die Textklassif ikation verbessert wird. Dabei wird 
davon ausgegangen, daS der Text des Dokumentes bereits als 
digitale Daten vorliegt, die dann weiterverarbeitet werden. 

Diese Aufgabe wird gemaS den Merkmalen des Patentanspruches 1 
gelost . 
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Weiterbildungen der Erfindung ergeben sich aus den abhangigen 
Anspruchen. 

Ein Anwendungsf all des Verfahrens ist die automatische Dia- 
5 gnose aus medizinischen Befunden. Fasst man einen medizini- 
schen Befund als Text und eine Krankheit als eine Klasse auf , 
so kann man das Problem der automatischen Diagnose mit dem 
Verfahren der Textklassif ikation losen. Ein wesentlicher Vor- 
teil des Verfahrens ist, daS es aus einer Menge von Befunden, 
10 deren Diagnose bekannt ist, automatisch und unuberwacht das 

zur Klassif ikation ndtige Wissen lernt . Fut den Arzt ist kein 
zusatzlicher Aufwand notig, er muS nur wie gewohnt den Befund 
schreiben. Gelernt wird aus den bereits vorhandenen Befunden. 
Nach der Trainingsphase wird dann mit Hilfe der gelemten 
15 wissensquelle und Techniken der Fuzzy-Mengen ein Befund klas- 
sifiziert. Die dem Befund zugeordnete Klasse entspricht der 
diagnostizierten Krankheit . 

Es wird zunachst davon ausgegangen, da£ der zu untersuchende 
20 Text bereits in Form von ASCII-Daten vorliegt. 

vor der inhaltlichen Analyse eines Textes wird eine morpholo- 
gische Analyse durchgef uhrt , die im ersten Schritt alle Wor- 
ter lemmatisiert (d.h. auf ihre Stammformen reduziert) und 
25 dann mit einem stochastischen Tagger lexikalische Mehrdeutig- 
keiten auf lost . Fur die Lemmatisierung kann ein Verfahren 
nach [4] verwendet werden. Eine Beschreibung des verwendeten 
Taggers kann [5] entnommen werden. Ausgangspunkt fuer alle 
weiteren Bearbeitungsschritte ist immer der getaggte Text . 

30 

Die Textklassif ikation ist trainingsbasiert . Aus einer Menge 
von Trainingstexten, deren Klassen bekannt sind, wird die 
Haufigkeit von Klassen, von Wortern insgesamt und von Wortern 
in den jeweiligen Klassen gezahlt . Mit diesen Haufigkeiten 
3 5 wird dann die empirische Korrelation zwischen einem Wort und 
einer Klasse nach Pearson [6] berechnet . Diese Korrelation 
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wird fur alle Worter und alle Klassen berechnet und gilt als 
Relevanz eines Wortes fur eine Klasse. 

Beriicksichtigt werden nur Korrelationen grofier einem Wert 
rmax, der sich aus der Prufung der Unabhangigkeit auf einem 
Signif ikanzniveau von z. B. 0.001 ergib.t (siehe hierzu z. B. 
[7]). Als Ergebnis erhalt man ein Lexikon, das die Relevanzen 
der Worter fur die Klassen enthalt . 

Ein Text wird nach dessen morphologischer Analyse mit Hilfe 
dieses Relevanzlexikons wie folgt klassif iziert : Fur jede 
Klasse wird eine unscharfe Menge erraittelt, die alle relevan- 
ten W6rtern enthalt. Die Zugehorigkeitsfunktion \iA der un- 
scharfen Menge entspricht gerade dem KorrelationsmaS von 
Pearson. Um die wahrscheinlichste Klasse zu erhalten, wird 
fur jede Klasse die Wahrscheinlichkeit ihrer unscharfen Menge 
von relevanten Wortern berechnet. Dazu wird die in der Fuzzy- 
Theorie gebrauchliche Formel aus [8] benutzt, namlich: 

prob(A): = Z H A U) • p(x), 

wobei >x A die Zugehorigkeitsfunktion der unscharfen Menge A 
von relevanten Wdrtern einer Klasse ist und p(x) als p(x ist 
relevant fur A) interpretiert wird: 

p(x ist relevant fur A) := p(A|x) = p(x,A) / p(x) 

Als Ergebnis der Klassif ikation wird die Klasse mit der wahr- 
scheinlichsten Fuzzymenge ausgegeben. 

Weiterbildungen der Erfindung ergeben sich aus den abhangi-an 
Anspruchen . 

An Hand eines Ausf uhrungsbeispieles wird die Erfindung weiter 
erlautert . Es zeigen 

Figur 1 eine prinzipielle Darstellung des Verfahrens, 
Figur 2 den Ablauf der Vorbereitung des Textes, 
Figur 3 ein Verfahren zum Trainieren des Systems, 
Figur 4 das Verfahren zur Klassif ikation des Textes. 
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Aus Figur 1 ergibt sich eine prinzipielle Darstellung des 
Verfahrens. Der Text auf einem Papierdokument DOK soil klas- 
sifiziert werden. Zunachst wird das Dokument DOK mit Hilfe 
eines Scanners SC eingescannt und eine Bilddatei BD erzeugt . 
Mit Hilfe des in der europaischen Patentanmeldung 0 515 714 
Al bekannten Verfahrens wird der zu klassif izierende Text in 
einer Layout segment ierung SG segmentiert und das Textsegment 
TXT-SG gebildet . Man erhalt wiederum eine Bilddatei, die 
jetzt nur noch den Textteil des Dokumentes enthalt . Die Bild- 
daten dieses Textes werden nun mit OCR in ASCII -Daten umge- 
wandelt. Diese sind in Fig. 1 mit TXT bezeichnet. Mit Hilfe 
eines Trainingslexikons REL-LEX wird die Textklassif ikation 
TXT-K durchgefuhrt , somit eine Klassenhypothese erzeugt, die 
angibt, mit welcher Wahrscheinlichkeit der zu klassif izieren- 
de Text einer bestimmten Klasse zuzuordnen ist . Die Klassen- 
hypothese ist in Fig. 1 mit KL-H benannt . 

vor der inhaltlichen Analyse des Textes TXT, der in ASCII - 
Format vorliegt, wird eine morphologische Analyse durchge- 
fuhrt. Dazu werden im ersten Schritt alle Worter des Textes 
lemmatisiert , d.h. auf ihre Stammformen reduziert (dies er- 
folgt mit Hilfe eines Lemmatisierers LEM, der den lemmati- 
sierten Text L-TXT liefert) und dann mit einem stochastischen 
Tagger TAG lexikalische Mehrdeutigkeiten auf gelost . Ergebnis 
dieser Behandlung des Textes TXT ist der getaggte Text T-TXT. 
der dann weiterverarbeitet werden kann. Die Funktionsweise 
des Lemmatisierers LEM ist in [4] beschrieben. der Aufbau und 
die Funktion des Taggers in [5] . 

Ausgangspunkt der weiteren Bearbeitungsschritte ist nun der 
getaggte Text T-TXT. 

Bevor die Textklassif ikation durchgefuhrt werden kann, muB 
eine Trainingsphase vorgesehen werden. In dieser Trainings- 
phase wird ein Relevanzlexikon REL-LEX erzeugt, das spater 
fur die Klassif ikation von Texten verwendet werden wird. Dazu 
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wird aus einer Menge von Trainingstexten TXT-TR, deren Klas- 
sen KL-TXT bekannt sind, die Haufigkeit von Klassen, von Wor- 
tern insgesamt und von Wortern in den jeweiligen Klassen ge- 
zahlt. Dies erfolgt in einer Einheit FR zur Frequenzberech- 
nung, in der die Wortf requenzen FR-W und die Klassenf requen- 
zen FR-KL gebildet werden. Mit diesen Haufigkeiten wird die- 
empirische Korrelation zwischen einem Wort und einer Klasse 
nach Pearson [6] berechnet : 

rlv(w in c) :=r(w,c)= N-Twc-Zw -Ic 

^(n ■ Z w 2 - (Xw) 2 ) • ( N . Vc 2 - (Ic) 2 ) 

dabei ist : 

N=Anzahl der Trainings texte, 

V wc=Anzahl der Trainingstexte der Klasse c mit Wort w, 
X w=Anzahl der Trainings texte mit Wort w, 
I c=Anzahl der Trainingstexte der Klasse c. 

Diese Korrelation wird fur alle Worter und alle Klassen be- 
rechnet und gilt als Relevanz REL eines Wortes fur eine Klas- 
se. Dabei wird beachtet, daS die Korrelationen nicht zu klein 
werden, es wird somit ein Wert r-max eingefiihrt, der z. B. 
auf einem Signif ikanzniveau 0,001 eingestellt wird [7]. Die 
Ergebnisse, also die Relevanzen eines Wortes fur eine Klasse 
werden in einem Lexikon REL- LEX abgespeichert , das also die 
Relevanzen der Worter fur die Klassen enthalt. 

Nachdem das Relevanz lexikon REL - LEX erzeugt worden ist, kann 
nun der zu untersuchende Text T-TXT klassif iziert werden. Da- 
zu werden ausgewahlte Worter des Textes, die von signif ikan- 
ter Bedeutung sind, aus dem Text mit den im Relevanzlexikon 
REL - LEX vorhandenen Beziehungen zwischen den Wortern und den 
Klassen untersucht und daraus fur den Text und fur jede Klas- 
se eine unscharfe Menge, eine sogenannte Fuzzymenge FUZ-R, 
erzeugt. Diese Fuzzymengen pro Klasse werden in einer Datei 
FUZ-KL abgespeichert. Die Fuzzymenge pro Klasse enthalt die 
worte des Textes, die- in der Klasse vorkommen und deren Rele- 
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vanz fur diese Klasse. Aus der Fuzzymenge wird fur jede Klas- 
se die Wahrscheinlichkeit ihrer unscharfen Menge von relevan- 
cen Wortern in einer Einheit PROB berechnet und in einer Da- 
tei PROB-KL abgespeichert . Dazu wird die Zugehorigkeitsf unk- 
tion der unscharfen Menge zu der Klasse bestimmt, die gerade 
dem KorrelationsmaS von Pearson entspricht . Die Wahrschein- 
lichkeit wird nach der in der Fuzzy-Theorie gebrauchlichen 
Formel berechnet, diese Formel ist bereits oben angegeben 
worden und ist aus [8] bekannt . In einer Einheit MAX zur Ma- 
ximumberechnung wird die Klasse ausgewahlt, fur die die hoch- 
ste Wahrscheinlichkeit ausgerechnet worden ist . Dieser wird 
der Text T-TXT zugeordnet . Diese Klasse ist in Figur 4 mit 
TXT-KL benannt. 

Das folgende Anwendungsbei spiel soli das Verfahren erlautern: 

News aus der USENET -Newsgruppe de . comp . os . linux .misc sollen 
in die Klassen Drucker, Konf iguration. Netzwerk, Sound, Ex- 
cerner Speicher, Video, Software, Entwicklung, Kernel, Kotnmu- 
nikation, Eingabegerate, SCSI, X-Windows und Betriebssystem 
einsortiert werden. 

Der erste Bearbeitungsschritt eines Textes ist die morpholo- 
gische Analyse. Sie transf ormiert z.B. den Satz Beiw Starten 
von X kommt mit der Mirage-P32 nur ein wei&er Bildschirm in 
die letnmatisierte Form: 

0 1 Beim beira prp 

1 2 starten starten vfin 

1 2 starten starten vinfin 

2 3 von von prp 

3 4 X x n 

4 5 kommt koxnmen vfin 

5 6 mit mit prp 

5 6 mit mit vprt 

6 7 der d pron 
6 7 der der det 

6 7 der der relpron 
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7 8 Mirage mirage n 

8 9 - - - 

9 10 P32 p32 n 

10 11 nur nur adv 

11 12 ein ein det 

11 12 ein ein vprt 

12 13 weisser weiss adjflk 

13 14 Bildschirm bildschirm n 

13 15 Bildschirm. bildschirm. $$$ 

13 14 Bildschirm. bildschirm. $$$ 

14 15 . . eos_punkt 

14 15 . . punkt 

15 16 $CR$ $CR $CR$ 

Der Tagger lost die Mehrdeutigkeiten bei Kategorien und 
Grundf ormen auf : 

0 1 Beim beim prp 

1 2 starten starten vfin 

2 3 von von prp 

3 4 X x n 

4 5 kommt kommen vfin 

5 6 mit mit prp 

6 7 der der det 

7 8 Mirage mirage n 

8 9 - - - 

9 10 P32 p32 n 

10 11 nur nur adv 

11 12 ein ein det 

12 13 weisser weiss adjflk 

13 14 Bildschirm bildschirm n 

14 15 . . eos_punkt 

Im Training wurde folgendes Relevanzlexikon trainiert 
(Ausschnitt ) : 

soundkarte_n 
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<konf iguration> rlv = 0.012523 
<netzwerk> rlv = -0.033766 
<sound> rlv = 0.716692 
cexterner speicher> rlv = -0.005260 

5 

monitor_n 

cvideo> rlv = 0.606806 

drucker_n 
10 <drucker> rlv = 0.683538 

<software> rlv = 0.014210 

gcc_n 

<entwicklung> rlv = 0.684036 
15 <kernel> rlv = 0.103325 

<kommunikation> rlv = -0.083844 

apsf ilter_n 

<drucker> rlv = 0.561354 



graf ikkarte_n 

<eingabegeraete> rlv = -0.008924 
<konf iguration> rlv = 0.017783 
<scsi> rlv = -0.005854 



20 



25 



cvideo> rlv = 0.501108 



xdm_n 



<eingabegeraete> rlv = 0 . ( 
<x-winows> rlv = 0.580419 



0 . 023704 



30 



scsi_n 



35 



<eingabegeraete> rlv = -0.065260 
<kernel> rlv = -0.026075 
<konf iguration> rlv = 0.117458 
<netzwerk> rlv = -0.035671 
<becriebssystem> rlv = -0.063972 
<scsi> rlv = 0.582414 
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<sound> rlv = -0.041297 

<externer speicher> rlv = 0.284832 

<video> rlv = -0.107000 

ethemec_n 

<kommunikat.ion> rlv = -0.012769 
<netzwerk> rlv = 0.502532 
<betriebssystem> rlv = 0.014134 



x_n 

cdrucker> rlv = -0.073611 
<eingabegeraete> rlv = 0.005764 
<entwicklung> rlv = 0.073568 
<kernel> rlv = 0.005127 
<kommunikation> rlv = -0.108931 
<konf iguration> rlv = -0.055763 
<netzwerk> rlv = -0.077721 
<betriebssystem> rlv = -0.046266 
<scsi> rlv = -0.054152 
<sound> rlv * -0.037581 
eexterne speicher> rlv = -0.081716 
<software> rlv = 0.037474 
<video> rlv = 0.197814 
<x-winows> rlv = 0.299126 

mirage_n 

<scsi> rlv = 0.065466 
<video> rlv = 0.221600 

bildschirm_n 

<drucker> rlv = -0.023347 
<eingabegeraete> rlv = 0.036846 
<entwicklung> rlv = -0.022288 
<konf iguration> rlv = -0.014284 
<video> rlv = 0.216536 
<x-windows> rlv = 0.269369 
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starten_vinf in 

<kommunikation> rlv = 0.002855 
<konf iguration> rlv = 0.060185 
<becriebssystem> rlv = 0.006041 
<externe speicher> rlv = -0.001856 
<x-windows> rlv = 0.260549 

starten_vf in 

<drucker> rlv = -0.038927 
<entwicklung> rlv = -0.037790 
<kernel> rlv = -0.009309 
<kommunikation> rlv = -0.057605 
<konf iguration> rlv = 0.035588 
<netzwerk> rlv = 0.045992 
<betriebssystem> rlv = -0.003344 
<sound> rlv = -0.019409 
<externe speicher> rlv = -0.043312 
<video> rlv = 0.110620 
<x-windows> rlv = 0.178526 

Nun werden fur die Klassen die Fuzzy-Mengen gebildet : 
Video = {x(0. 197814) ,mirage(0. 221600) , bildschirm(0 . 216536) } 
X- Windows = 

{starten(0. 178526) ,x(0. 299126) , bildschirm( 0 . 269369 ) } 
Weiterhin sind bekannt die Wahrscheinlichkeiten der Worter: 
Wort Video X -Windows 



x 



0.24 



0 .19 



mirage 
bildschirm 



0.8 



0.43 



0.33 



starten 



0 .24 



0.21 



Hieraus- und aus den Zugehorigkeitsf unktionen der Worter be- 
rechnen wir die Wahrscheinlichkeiten der Klassen-. 
Prob(Video) = 0.197814*0.24 + 0.221600*0.8 + 0.216536*0.43 
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Prob(X- Windows) = 0.178526*0.21 + 0.299126*0.19 + 
0 .269369*0 .33 
Prob (Video) = 0.3 
Prob (X- windows) = 0.18 
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Patentanspruche : 

1. Verfahren zur automat ischen Klassif ikation eines auf einem 
Dokument auf gebrachten Textes nach dessen Transformation in 
digitale Daten mit Hilfe eines Rechners, 

• bei dem jede Textklasse durch signifikante Worter definiert 
ist , 

• bei dem in einer Lexikondatei (REL-LEX) fur jede Textklasse 
die signif ikanten Worter und deren Signifikanz fur die 
Textklasse gespeichert werden, 

• bei dem ein zuzuordnender Text mit alien Textklassen ver- 
glichen wird und fur jede Textklasse die unscharfe Menge 
(Fuzzymenge) von Worten in Text und Textklasse und deren 
Signifikanz fur die Textklasse ermittelt wird. 

• bei dem aus der Fuzzymenge jeder Textklasse und deren Si- 
gnifikanz fur jede Textklasse die Wahrscheinlichkeit der 
Zurordnung des Textes zur der Textklasse ermittelt wird, 

• bei dem die Textklasse mit der hochsten Wahrscheinlichkeit 
gewahlt wird und dieser der Text zugeordnet wird. 

2. Verfahren nach Anspruch 1, 

• bei dem der zu klassif izierende Text vor der Inhaltsanalyse 
in einem Lemmatisierer (LEM) lemmatisiert wird, 

• bei dem der lemmatiserte Text (L-TXT) einem stochastischem 
Tagger (TAG) zugefuhrt wird, urn lexialische Mehrdeutigkei- 
ten aufzulosen, 

• und bei dem der getaggte Text (T-TXT) zur Textklassif ikati- 
on verwendet wird . 

3. Verfahren nach Anspruch 2, 

• bei dem zur Klassif ikation des Textes ein Relevanzlexikon 

(REL-LEX) erzeugt wird, 

• bei dem dazu eine Menge von Trainings texten, deren Klassen 
bekannt sind, verwendet wird, 

• bei dem aus dieser Menge die Haufigkeit der Klassen, von 
Wortern und von Wortern in den jeweiligen Klassen gezahlt 
wird, 
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• bei detn mit diesen Haufigkeiten eine empirische Korrelation 
zwischen einem Wort und einer Klasse berechnet wird, 

• bei dem diese Korrelation fur alle Worter und alle Klassen 
berechnet wird und das Ergebnis der Berechnung als Relevanz 
eines Wortes fur eine Klasse in einer Datei gespeichert 
wird, die als Relevanzdatei oder Relevanzlexikon (REL-LEX) 
verwendet wird. 



4. Verfahren nach Anspruch 3, 

bei dem die Korrelation (Relevanz) zwischen einem Wort und ei- 
ner Klasse nach f olgender Formel erf olgt : 

N ■ I wc - V w ■ Y.c 

rlv(w in c):=r(w,c)= , 

^(N - Z w 2 - (I w) 2 ) -(n • Ic 2 - (Ic) 2 ) 

dabei ist: 

N=Anzahl der Trainingstexte, 

Z wc=Anzahl der Trainingstexte der Klasse c mit Wort w, 
v w=Anzahl der Trainingstexte mit Wort w, 
Vc=Anzahl der Trainingstexte der Klasse c. 



5. Verfahren nach Anspruch 4, 

bei dem nur Korrelationen > einem gewahlten Wert r-max be- 
rucksichtigt werden, der auf einem Signif ikanzniveau von z. 
B. 0.001 festgelegt wird. 

6 . Verfahren nach Anspruch 5 , 

• bei dem der zu untersuchende Text (T-TXT) und das Relevanz- 
lexikon (REL-LEX) dazu verwendet wird, um fur jede Klasse 
die unscharfe Menge (Fuzzymenge) der signif ikanten Worter 
pro Klasse und deren Relevanz pro Klasse zu ermitteln, 

• bei dem aus der Fuzzymenge pro Klasse und deren Relevanz 
fur jede Klasse die Wahrscheinlichkeit ihrer unscharfen 
Menge von relvanten Wortern berechnet wird, 
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• bei dem aus den Wahrscheinlichkeiten pro Klasse die Klasse 
mit der maximalen Wahrscheinlichkeit ermittelt wird und 
dieser Klasse der Text zugeordnet wird. 

7. Verfahren nach Anspruch 6, 

bei dem die Berechnung der Wahrscheinlichkeit nach der Formel 

prob(A): = V H A (x) • p(x), 
x 



erfolgt, wobei u A die Zugehdrigkeitsf unktion bedeutet. die 
angibt, in wieweit die Fuzzymenge einer Klasse zugeordnet 
wird und die gerade dem KorrelationsmaS nach obiger Formel 
entspricht . 

8 . Verwendung des Verf ahrens nach einem der vorhergehenden 
Anspruche zur automatischen Diagnose aus medizinischen Befun- 
den, 

bei dem medizinische Befunde als Text und eine Krankheit als 
eine Klasse aufgefaEt wird 

bei dem in einer Trainingsphase das zur Klassif ikation erfor- 
derliche Wissen aus einer Menge von Befunden, deren Diagnose 
bekannt ist, automatisch gelemt wird 

und bei dem ein neuer Befund nach der Technik der Fuzzymengen 
klassif iziert wird. 
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